雷鋒網 AI 科技評論按:我們都知道,深度學習的三駕馬車獲得了 2018 年的圖靈獎,這是對深度學習的技術成功以及三人貢獻的最佳肯定。最近幾年里,Geoffrey Hinton 帶來了知識蒸餾和膠囊網絡,Yann LeCun 在繼續研究 CV+機器人的同時,也堅持和 Gary Marcus 打網絡口水仗。
Bengio:很多面向大眾的信息渠道都不理解學術人員做科研的方式,不管是針對 AI 領域還是其他學科,其實,我們研究和理解當前的理論和方法的不足之處,是為了能探索我們的智力工具之外的更大的空間。深度學習的研究人員們想要找到深度學習的效果并不如我們預想的那么好的場景,這樣我們就可以知道還缺了什么、還要探索哪些新方向。
不幸的是這個過程被 Gary Marcus 這樣的人找茬了,然后從他的嘴里說出來就變成了「你們看,我就說深度學習不行吧」。不管他怎么說,像我這樣的研究人員們其實都在想方設法拓展深度學習的能力范圍。當我說到 AI 系統需要有能力理解因果關系的時候,我的意思也不是說要用因果關系把深度學習推翻,我想要做的是給我們當前的工具箱里再添一些新東西。
作為一個科學家,對我來說真正重要的是還需要探索哪些新方向才能解決問題。誰對誰錯、誰站了誰的隊這種事情我并不關心。
(Gary Marcus 后來對此解釋道:「在 Yoshua 的話里我好像是一個完全反對深度學習的人,實際上我是混合派,我還是看好深度學習的,但我認為它應該和其它的方法結合使用。深度學習是一個挺不錯的工具,但它肯定不是唯一的工具。」)
Bengio:過去二十多年里我們對深度學習的研究進度可以這樣評價:直到今天,這些系統能達到的智慧程度都沒法和一個 2 歲的小孩相提并論。不過,我們的算法在感知任務里可能能達到一些更低級的動物的水平。我們現在也有越來越多的工具可以幫助一個系統探索它所在的環境,所以這些系統的智力水平也在慢慢地逐步提升。
如今有一個主要的爭論是,高層次的認知是由哪些基礎組件構成的?我們猜測因果關系是其中一個組件,另外還有推理、規劃、想象力、歸因。在傳統 AI 中,嘗試解決這些問題的方法是邏輯和符號。有人提出我們現在也可以用傳統 AI 的方式來做,不過可能要做一些改進。
也有一些人和我有一樣的想法,我們覺得應該在過去這些年設計的深度學習工具的基礎上實現這些功能,這和人類做推理的方式更相似;而人類做推理的方式是和純粹的邏輯系統、基于搜索的執行方式完全不同的。
Bengio:注意力機制讓我們可以把計算能力集中在某幾個物體、某幾個計算上。人類的這種工作方式是「有意識的處理過程」中的尤其重要的一個部分。當人有意識地關注某件事時,你的注意力在很少的幾個元素上,可能就只是某個念頭,然后會轉向下一個念頭。這種過程和標準的神經網絡完全不同,神經網絡的處理方式是大規模的并行化處理。在深入學習引入注意力機制之后,我們在計算機視覺、翻譯、存儲方面都有很大的進步,而我覺得這只不過是仿大腦的這種新的計算形式的開始而已。
需要說明的是,我們距離解決這些問題還遠,但我們手里已經有不少工具,已經可以動起來了。我也沒覺得這會很容易。2017 年的時候我寫過一篇論文《The Consciousness Prior》(意識先驗,),里面就提出了這個問題。我有好幾個學生就在研究這個問題,我也知道這需要付出長期的努力。
Bengio:我們對神經網絡的能力有過一些想象,在其中,推理能力、記憶能力、想象力其實是人腦思考這同一件事的三個不同的部分。你假想自己在過去或者未來做什么事、產生什么后果,隨著你假想的時間倒流或者前進,你實際上在做推理。如果你預計到未來會發生什么不好的事情,你會現在就采取一些措施改變事情發生的軌跡,這就是規劃了。記憶力也用到了,因為你需要回憶你知道的信息來做出決策。你會選出當前的重要的事情,以及選出過去的相關的事情。
注意力是其中的一個關鍵的基礎功能。比方說我正在把一本書翻譯成另外一個語言。每翻譯一個詞,我需要仔細閱讀的是書里的很小很小一部分內容。注意力就可以幫我們拋棄很多不相關的細節,關注真正重要的東西。能夠挑出相關的、重要的元素,這就是注意力的作用。
Bengio:我們不需要告訴神經網絡要把注意力放在什么東西上,這正是神經網絡的魅力所在。它能夠學習,它能自己學會要給一組元素里的每一個分配多少注意、多少權重。
Bengio:人類在推理時用到的高層次概念,在我看來很可能是一些帶有因果關系的變量。人類做推理并不是基于像素這種細枝末節的元素的,而是門、把手、門開著、門關了這樣的概念。因果關系在機器學習的下一步發展中非常重要。
而且因果關系也和做深度學習的人都關心的另一個話題有關。人類有一種系統性泛化的能力,可以把已經知道的概念推廣到更多的事情上,不同的概念用新的方式融合之后可以得到全新的東西。今天的機器學習還做不到這一點。當前的機器學習都是在某個特定的數據集上做訓練,在一種情境下訓練模型,然后在另一種情境(比如另一個國家里)使用模型,這樣經常會帶來問題。我們需要泛化能力,需要遷移學習。我們面前的一個重大挑戰就是把模型遷移到一個新環境以后,如何保證它能繼續正常工作、或者能快速適應。
Bengio:元學習是近期的一個熱門話題,就是「學習如何學習」。我在 1991 年的時候也寫論文討論過這個概念,不過一直到最近幾年我們才終于有了足夠的計算能力可以實現這種東西;它們需要消耗很多的計算能力。
它的核心思想是,為了能夠泛化到一個新的環境,就需要練習如何泛化到新環境。這種思想很簡單,其實小孩就一直是這樣的,從家里的一個房間走到另一個房間,環境不是固定的,一直在改變,小孩就逐漸學會了適應。為了能高效地適應,小孩還需要用到他們以前學到的知識。我們對這種能力的理解正在逐漸加深,也在嘗試構建工具來復制這種能力。
有一些聲音批評深度學習需要大量的數據,如果想要在一個任務上訓練深度學習模型的話確實是這樣的。而小孩只需要很少的數據就可以學習,他們能重復利用以前學習過的東西。但更重要的是,他們利用了適應、泛化的能力。
Bengio:還不行。我剛才談到的這些都是非常基礎的科學研究,都是在非常簡單的問題上做驗證。不用覺得遺憾,現在我們的進度就是只到這里。我們現在先檢驗這些想法,然后不斷提出新的假說。它們都沒辦法很快就用在工業界。
不過有兩個來自工業界的、對他們造成實際困擾的限制是這些研究可以起到作用的。第一個是,構建一些對環境中的變化更魯棒的系統;第二,如何構建自然語言處理系統、對話系統、虛擬助手?目前的這些基于深度學習技術、達成了非常高的表現的系統的問題在于,雖然它們都是用海量數據訓練出來的,但是它們并不完全理解它們說的話是什么意思。Gary Marcus 這樣的人會跳出來說:「這不就說明了深度學習不行嗎」,而我這樣的人就會說:「這很有意思,我們來解決這個挑戰吧。」
Bengio:最近有個點子叫做「有依據的語言學習」(grounded language learning),吸引了很多研究人員的注意力。它的核心是提出 AI 系統不應該僅僅通過文本學習,它應該同時學習(認識)這個世界的運行方式以及學習如何用語言描述世界。我們可以問問自己,如果一個小孩只愿意從書本上了解世界,我們會覺得他能對世界建立起完整的了解嗎?我覺得是很難的。
這和「有意識知識」和「無意識知識」之間也有一些關系,「無意識知識」就是那些我們知道但是講不出來的東西。一個典型的例子是物理直覺,一個兩歲的小孩就能建立起物理規律的直覺,不需要學習牛頓的萬有引力定律就有重力的概念。現在已經有一些研究人員在嘗試構建能和環境互動、探索基本物理規律的系統。
Bengio:對話系統的問題在于,它們通常都是不了解提到的那個詞的復雜性的。比如有這樣一句話,「Jim 想把臺燈裝進他的皮箱里,但是它太大了。」我們人類有常識,明白「太大了會導致裝不進去」的只能是臺燈,就能確認「它」的指代,能正確理解這個句子。這些知識的確有辦法用語言描述,但對人類來說這些常識,比如一個箱子一般是什么尺寸,是不會總掛在嘴邊的。
我們希望語言理解系統也能對這個世界有更多的了解。目前來說,AI 研究人員們都在抄近道,但抄近道是沒法真正解決問題的,AI 系統最終還是需要建立起一個世界運行的模型。
加拿大當地時間 12 月 11 日下午,Yoshua Bengio 在 NeurIPS 2019 現場進行演講。清華大學唐杰老師對Bengio 演講內容做了轉述總結,雷鋒網 AI 科技評論摘錄如下。
Yoshua 認為,AI 作為本世紀的驚人進步,僅僅依靠增加數據集、模型大小、電腦速度是否就足夠了呢?實際上 AI 距真正的人工智能還差的很遠!
Yoshua 的第一個觀點,是指人的認知系統包含兩個子系統(這是認知理論中大家共識的觀點):System1 直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;System2 是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要著重考慮的。當然 Yoshua 也提到計算機作為 Agent 實現 AI,需要從計算機角度考慮,比如更好的模型和知識搜索等。
Yoshua 認為,對于計算機來說,最關鍵的是處理數據分布中的變化。對于 System 2 來說,基本的要素包括:注意力和意識。注意力(Attention)實際在目前的深度學習模型中已經有大量的實現和探討,比如 GAT(圖注意力機制)等;意識這部分則比較難,其實意識最關鍵的是定義到怎樣的邊界。Yoshua 提到意識先驗可以使用稀疏因子圖模型來實現,這是一個思路,實現了因果關系。從整體的理論框架方面可以考慮元學習(Meta-learning)、局部修正假設(localized change hypothesis)、因果發現(causal discovery),最后架構方面可以考慮如何學習不同對象的操作。
對于處理數據分布,傳統機器學習都是基于 IID(independent and identically distributed),也就是獨立同分布的假設,但實際現狀是很多真實場景下我們感興趣的數據往往是出現次數非常少的數據,也就是我們在處理時需要關注更多的是 OOD(out of distribution),也就是在數據中出現較少的分布,當然這需要我們在機器學習算法中有新的數據假設。尤其是從 Agent 的角度來考慮,需要考慮哪些是影響數據分布變化的因素,以及不同分布的可組合性等方法如何對現在的 IID 和 OOD 進行泛化。相對傳統的符號 AI 系統,當前的 AI 需要更多具有泛化能力的機器學習能力。
注意力機制是最近幾年深度學習發展的一個重要技術,最近幾年在很多系統中都有大量應用,注意力機制可以看做實現意識的第一步,在人類大腦中有自上而下的注意力和自下而上的注意力。
機器學習和意識模型相結合的關鍵是如何在機器學習中實現意識,或者說意識相關的理論/模型如何幫助機器學習。比如可以基于意識理論構造一些假設,然后用機器學習的方法來驗證這些假設。當然從人的角度來看意識,高層次的表示可以說是語言,這需要把人的兩個認知系統 System1 和 System2 有機地結合起來,也就是說把低層次的表示和高層次的決策結合起來。
Yoshua 還提到了前意識/意識先驗。具體可以使用稀疏因子圖,稀疏因子圖不是一個新的事,基本思路是圖模型的統一模型,因子圖的好處是可以把有向圖和無向圖都統一起來。稀疏因子圖可以用來學習變量之間的因果關系,從而構造變量之間的因果關系(找到真正的因果關系,而不是給不同變量給一個權重,這是為什么考慮稀疏的原因)。
元學習(學習學習的模型)是可能實現機器學習到 OOD 和模型快速遷移的一個辦法。說到 OOD,究其原因是有行為的變化,或者是用戶行為對于數據的干預。元學習的知識表示可以有效幫助克服 OOD,比如通過元遷移學習到變量之間的因果關系,這里的挑戰是如何學習到未知干預變量的因果特性。最后是如何學習樣本的可能操作,類似自動機器學習,但這里是在對象的不同操作層面。




咨詢郵箱:
咨詢熱線:
